@MastersThesis{Marques:2022:InAtCo,
author = "Marques, Wilson Jos{\'e} de S{\'a}",
title = "Intelligent attitude control of satellites via deep reinforcement
learning",
school = "Instituto Nacional de Pesquisas Espaciais (INPE)",
year = "2022",
address = "S{\~a}o Jos{\'e} dos Campos",
month = "2021-12-14",
keywords = "attitude control, satellite, artificial intelligence, deep
reinforcement learning, optimal control, controle de atitude,
sat{\'e}lite, intelig{\^e}ncia artificial, aprendizagem por
refor{\c{c}}o profundo, controle {\'o}timo.",
abstract = "This work proposes the application of machine learning techniques
to the attitude control of satellites. More specifically, Deep
Reinforcement Learning (DRL) is used to generate an optimal
control policy. The policy is parameterized as a neural network,
which allows for its application in higher dimension state spaces.
Since the torque command used to modify the attitude of the
satellite is a continuous signal, it is necessary to use
algorithms suited for continuous action spaces. Accordingly, three
DRL algorithms were evaluated, namely the Deep Deterministic
Policy Gradient (DDPG), the Twin Delayed DDPG (TD3), and the Soft
Actor-Critic (SAC). For this method to work in the attitude
control setting, it was necessary to modify the default neural
network model used within the referred algorithms. Particularly,
the bias units of the neural networks representing the control
policies have been removed. In regards to the training procedure,
the three algorithms were successful in finding the parameters of
Neural Networks (NN) capable of solving the attitude control
problem. However, there were differences in performance. For
instance, the SAC converged considerably faster than the other
two, and its learning curve showed more consistent learning.
Furthermore, the final average reward value was equivalent for SAC
and TD3. DDPG, on the other hand, showed a more oscillatory
behavior during training, with the acquired reward varying
considerably across the training episodes. While comparing the
actual performance of the NN trained with each algorithm in an
attitude control task, the neural network trained with the TD3
algorithm presented the best response, which closely matched that
of a Proportional-Derivative controller in a nominal scenario.
Thereafter, a more critical scenario involving actuator failure
was also evaluated, where we compared the performance of the
intelligent controller trained with the TD3 algorithm with that of
a baseline PD controller. Overall, in three out of four failure
scenarios, the intelligent controller was able to respond better
than the baseline PD in this challenging scenario. RESUMO: Este
trabalho prop{\~o}e a aplica{\c{c}}{\~a}o de t{\'e}cnicas de
aprendizagem de m{\'a}quina para o controle de atitude de
sat{\'e}lites. Mais precisamente, aprendizagem por refor{\c{c}}o
profundo {\'e} utilizada para a obten{\c{c}}{\~a}o de uma
pol{\'{\i}}tica {\'o}tima de controle. A pol{\'{\i}}tica de
controle {\'e} parametrizada por uma rede neural, o que
possibilita a sua aplica{\c{c}}{\~a}o em espa{\c{c}}os de
estados de ordem elevada. Uma vez que o torque de controle {\'e}
um sinal cont{\'{\i}}nuo, se faz necess{\'a}rio o uso de
algoritmos apropriados para espa{\c{c}}os de a{\c{c}}{\~a}o
cont{\'{\i}}nuos. Dessa forma, tr{\^e}s algoritmos s{\~a}o
avaliados, sendo eles Deep Deterministic Policy Gradient (DDPG),
Twin Delayed DDPG (TD3) e Soft Actor-Critic (SAC). Para que esse
m{\'e}todo funcione em problemas de controle de atitude, {\'e}
necess{\'a}rio modificar o modelo da rede neural padr{\~a}o
usado nesses algoritmos. Particularmente, as unidades de vi{\'e}s
das redes neurais utilizadas para representar pol{\'{\i}}ticas
de controle foram removidas. Em rela{\c{c}}{\~a}o ao
procedimento de treinamento, o algoritmo SAC convergiu
consideravelmente mais r{\'a}pido do que os outros dois, e a sua
curva de aprendizagem teve um comportamento mais est{\'a}vel.
Al{\'e}m disso, o valor final da recompensa acumulada foi
equivalente para os algoritmos SAC e TD3. O algoritmo DDPG, em
contrapartida, apresentou um comportamento inst{\'a}vel durante o
treinamento. Quando comparamos o desempenho da rede neural
treinada com cada algoritmo em uma tarefa de controle de atitude,
a rede neural treinada pelo algoritmo TD3 apresentou a melhor
resposta, a qual se aproximou da resposta do controlador PD de
refer{\^e}ncia em um cen{\'a}rio nominal. Em seguida, um
cen{\'a}rio mais cr{\'{\i}}tico envolvendo falha em atuador foi
avaliado, onde comparamos o desempenho do controlador inteligente
treinado com o algoritmo TD3 com o desempenho de um controlador PD
de refer{\^e}ncia. De forma geral, em tr{\^e}s dos quatro
cen{\'a}rios de falha analisados, o controlador inteligente
respondeu melhor do que o PD de refer{\^e}ncia.",
affiliation = "{Instituto Nacional de Pesquisas Espaciais (INPE)}",
committee = "Rocco, Evandro Marconi (presidente) and Chagas, Ronan Arraes
Jardim (orientador) and Maximo, Marcos Ricardo Omena de
Albuquerque",
englishtitle = "Controle de atitude inteligente de sat{\'e}lites via aprendizagem
por refor{\c{c}}o profundo",
language = "en",
pages = "124",
targetfile = "publicacao.pdf",
urlaccessdate = "11 maio 2024"
}